6 research outputs found

    Using deep reinforcement learning for online machine translation

    No full text
    We present a Deep Reinforcement Learning based approach for the task of real time machine translation. In the traditional machine translation setting, the translator system has to 'wait' till the end of the sentence before 'committing' any translation. However, real-time translators or 'interpreters' have to make a decision at every time step either to wait and gather more information about the context or translate and commit the current information. The goal of interpreters is to reduce the delay for translation without much loss in accuracy. We formulate the problem of online machine translation as a Markov Decision Process and propose a unified framework which combines reinforcement learning techniques with existing neural machine translation systems. A training scheme for learning policies on the transformed task is proposed. We empirically show that the learnt policies can be used to reduce the end to end delay in translation process without drastically dropping the quality. We also show that the policies learnt by our system outperform the monotone and the batch translation policies while maintaining a delay-accuracy trade-off.Nous preĢsentons une approche baseĢe sur l'apprentissage par renforcement profond pour la taĢ‚che de traduction automatique en temps reĢel. Dans le cadre traditionnel de la traduction automatique, le systeĢ€me de traduction doit 'attendre' jusqu'aĢ€ la fin de la phrase avant de 'valider' toute traduction. Cependant, les traducteurs en temps reĢel ou les 'interpreĢ€tes' doivent deĢcider aĢ€ chaque moment s'ils doivent attendre et recueillir plus d'informations sur le contexte ou traduire et valider l'information disponible actuellement. Le but des interpreĢ€tes est de reĢduire le deĢlai de traduction sans perte de preĢcision. Nous formulons le probleĢ€me de traduction automatique 'simultaneĢe' comme processus de deĢcision markovien et proposons un cadre unifieĢ qui joint des techniques d'apprentissage par renforcement avec des systeĢ€mes neuronaux existants de traduction automatique. Un scheĢma d'entraiĢ‚nement pour les politiques d'apprentissage sur la taĢ‚che transformeĢe est proposeĢ. Nous montrons empiriquement que les politiques apprises peuvent eĢ‚tre utiliseĢes pour reĢduire le retard de bout en bout dans le processus de traduction sans pour autant reĢduire radi- calement la qualiteĢ. Nous montrons eĢgalement que les politiques apprises par notre systeĢ€me surpassent les politiques monotones de traduction et celles de traduction par lots tout en maintenant un compromis entre preĢcision et retard
    corecore